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摘 要 : 为 了 利用 图 像 集 中 的 集合 信息 来 提高 图 像 识别 精度 以 及 对 图 像 变 化 的 鲁 棒 性 ， 从 而 大 幅 降 低 诸 如 姿态 、 光 
上 照 、 庶 挡 和 未 对 齐 等 因素 对 识别 精度 的 影响 ,提出 了 一 种 用 于 图 像 集 分 类 的 图 像 集 原型 与 投影 学 习 算 法 (LPSOP)。 
该 算法 针对 每 个 图 像 集 学 习 有 代表 性 的 点 (原型 ) 以 及 一 个 正 交 的 全 局 投影 矩阵 ， 使 得 在 目标 子 空间 的 每 个 图 像 集 可 
PARS X81 同类 的 最 近 原 型 集中 。 用 学 习 到 的 原型 来 代表 该 图 像 集 ， 既 能 降低 宛 余 图 像 干扰 ， 又 能 减少 存储 
和 计算 开销 ， 学 习 到 的 投影 矩阵 则 能 够 大 幅 提 高 分 类 精度 与 噪声 便 棒 性 。 在 UCSD/Honda、CMU Mobo 和 YouTube 
Celebrities 这 三 个 数据 集 上 的 实验 结果 表明 ，LPSOP 比 目 前 流行 的 图 像 集 分 类 算法 具有 更 高 的 识别 精度 和 更 好 的 鲁 
棒 性 。 
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Learning of prototype set and orthogonal projection for image set classification 
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Dept. of Computer Science, Nanjing University of Science & Technology, Nanjing 210094, China) 


Abstract: In order to improve the identification accuracy and the robustness by using collection information of the image 
set, hence greatly reduces the influence of posture, light, misalignment and so on. This paper developed a novel method, 
called learning prototype set and orthogonal projection for image set classification (LPSOP) , which simultaneously learns 
the representatives (prototypes) and a linear discriminative projection for each image set, making any image set in the target 
subspace can be classified into its nearest neighbor prototype optimally. In addition, the learned representatives not only 


reduce redundant image noise but also reduce the consumption of time and memory. At the same time, the projection matrix 


greatly improves the classification accuracy and noise robustness. Experimental results on UCSD/Honda, CMU Mobo and 
YouTube databases prove that compared to state-of-the-art learning methods , LPSOP has higher recognition accuracy and 
better robustness. 
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"EM DEUM SEM EM UI Im 像 集 建 模 为 仿 射 包 ， 图 像 集 之 间 的 相似 度 被 定义 为 两 个 仿 射 
基于 单 幅 图 像 识别 的 传统 方法 暴露 出 精度 不 高 、 鲁 棒 性 差 的 包 中 最 近 点 之 间 的 距离 。 这 是 一 种 几何 方法 ， 分 类 结果 依赖 
问题 ， 不 能 满足 自然 环境 下 图 像 的 变化 。 与 基于 单 幅 图 像 的 于 高 维 仿 射 空间 中 点 的 位 置 ， 图 像 集中 的 离 群 值 将 会 大 大 降 
识别 技术 相 比 ， 图 像 集 分 类 则 研究 一 段 时 间 的 视频 贞 序 列 或 。 ” 低 分 类 精度 。 为 了 降低 图 像 集 仿 射 包 模 型 松散 导致 的 几何 区 
者 在 不 同时 间 、 场 景 、 光 照 下 采集 的 多 幅 图 像 。 通 过 对 医 域 太 大 的 问题 ， 基 于 稀 玻 表示 最 近 点 的 图 像 集 分 类 方法 局 
集 进行 建 模 来 选择 合 适 的 分 类 标准 ， 这 样 易于 消除 不 利 因素 ”通过 对 字典 稀 朴 线性 表示 来 表示 图 像 集 ， 以 稀 朴 重建 残 差 来 
的 影响 〈 如 光照 、 姿 态 、 遮 挡 等 )， 从 而 更 有 效 的 增强 判别 能 ” 对 图 像 集 进行 分 类 。 正 则 化 最 近 点 方法 [9 将 每 个 图 像 集 建 模 
力 ， 提 高 识别 率 。 因 此 ， 基 于 图 像 集 的 分 类 算法 越 来 越 广泛 。 为 一 个 正则 化 的 仿 射 包 。 这 些 基 于 最 近 点 的 方法 高 度 依赖 图 
应 用 在 人 脸 识 别 、 目 标识 别 以 及 安全 监控 等 机 器 学 习 领 域 。 像 集 中 每 个 样本 的 位 置 ， 同 时 离 群 值 和 噪声 对 模型 的 结果 影 

根据 集合 本 身 的 特点 ， 图 像 集 分 类 面临 的 主要 问题 有 两 。 响 较 大 。 为 了 降低 这 些 影响 ， 文 献 [11] 利 用 协 方差 矩阵 和 歼 
个 , 一 个 是 集合 的 表示 方法 〈 建 模 ), 一 个 是 集合 间 相 似 度 的 。 曼 核 函数 来 表示 图 像 集 ， 利 用 图 像 集 从 歼 曼 流 形 到 欧 几 里 德 


DS 
58 


度量 。 根 据 对 图 像 集 的 建 模 方法 进行 划分 ， 相 关 方 法 主要 分 空间 的 映射 来 测量 图 像 集 之 间 的 相似 性 。 考 虑 到 图 库 集 之 间 
为 四 类 : 基于 统计 模型 的 方法 ， 比 如 ProNNUM Stiefel and ”的 相关 性 , 文献 u11 提 出 基于 图 像 集 的 协同 表示 方法 进一步 
Grassmann ManifoldsU!; 基于 线性 子 空间 的 方法 , 比如 DCCB]; 是 高 了 识别 精度 。 值 得 注意 的 是 中 科 院 王 雯 提出 一 种 有 效 的 
基于 非 线 性 流 形 的 方法 ， 比 如 MMDL%181, 基于 仿 射 子 空间 的 图 像 集 分 类 算法 PDLUS, PDL 学 习 一 个 投影 矩阵 将 样本 从 原 
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空间 投影 到 目标 子 
模 成 仿 射 包 ， 通 过 更 新 仿 射 
的 投影 矩阵 与 原型 联合 
的 分 类 效果 , 但 仍然 存在 一 些 不 足 : a) 需要 样 
KEK, 计算 、 存 储 成 本 高 ;c) 
性 与 分 类 精度 低 。 
来 , 深度 学 习 的 出 现 , 虽然 在 一 些 任务 中 取得 了 显著 的 成 功 ， 
分 类 中 的 应 用 还 很 少 。 
种 基于 原型 减少 与 


率 统计 分 布 :b) 处 
存在 噪声 或 离 群 


但 它 在 图 像 集 
针对 以 上 问题 ， 本 文 提出 正 

像 集 分 类 算法 (LPSOP )。 对 于 每 个 图 像 集 ， 首 先 通 过 稀 
判别 分 析 学 习 一 组 有 代表 性 
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基础 原型 ， 接 着 提出 
函数 来 同时 学 习 最 优化 的 原型 和 一 个 线性 
的 代表 点 〈 原 型 ) 不 仅 能 
氏 计算 时 间 、 空 间 
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先 利 用 Fisher 判别 准则 学 习 基 
图 像 集 , 接着 在 更 新 原型 位 
通过 在 UCSD/Honda, 
数据 集 上 ， ds, 
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更 新 原型 位 置 ， 学 习 得 到 
上 述 方法 虽然 取得 了 
本 满足 某 


近 些 年 


种 基于 最 
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小 化 分 类 误差 概率 尼 
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开销 ， 学 习 
集 的 判别 能 力 。 此 外 ， 
MEE BEDAE 


到 的 正 交 投影 邱 阵 大 幅 
为 了 进一步 增强 目标 子 
阵 约 束 为 标准 正 交 矩阵 。 


优化 原型 


投影 学 习 ， 
E 阵 进行 交 蔡 帮 代 优化 。 与 PDL 不 同 ， 


本 文 发 展 了 梯度 下 降 算 


础 原型 而 不 是 利用 仿 射 包 
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方法 
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Kp: Ir -rm 为 重建 误 
SM) 是 一 个 关于 系数 矩 


衡 参 数 。 


为 了 让 类 与 类 之 间 具 
别 准则 使 类 内 离散 


.为 第 c 个 类 中 的 第 i 


列 向 量 ) 的 分 类 场景 ， 
KE M ={M,, M3,- 
到 7 的 代表 点 子 旨 


min Ir -TM| *a|Ml|,, * Bf(M) 


C ^ ER AE T - 0.0, 


基于 文献 [1 
Mc) 


253, IMs, 


化 。 其 离散 度 计算 公式 如 下 : 


义 为 


P -(RB.P,... 
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Sw M) -» »3 (m, — pe XM; — He)” 
cl m, eM, 


È 
SaM) 2 3 n. Qa, — uu, — Y 
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Hp: m 为 M BUSR Kl, us I 0 4) 73 M. 和 mM 的 均值 向 量 ， 
n. 表示 第 c 类 的 样本 个 数 。 


结合 式 


f(M) «tr(S (M) -tr(Ss 


TX OD RAR O) 中 得 到 


min Ir -TM È * oM, + Br(Sy QM) -tr(Ss (M) + n|M 


优化 目 
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数 式 C50 得 到 一 


的 同时 


精度 和 和 鲁 棒 性 。 


(M. JE T. XS E I FR ft R CT B. E), f 
EP-ULB... P] (PET) ， 其 学 习 模型 为 


pem 的 判别 函数 ， 


了 良好 的 
度 SVOD 最 小 化 ， 类 间 离 艇 度 OD 最 大 


个 原型 减少 的 代表 性 
,及 } ,代表 性 原型 集 P 不 仅 能 够 最 佳 地 描述 


学 习 全 局 投影 矩阵 。 
和 YouTube Celebrities 这 
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像 集 集 7 ， 还 使 得 类 之 间 具 有 很 好 的 判别 能 力 。 针 对 实际 应 
用 场景 中 存在 噪声 或 者 离 群 点 导致 图 像 集 分 类 精度 和 稳定 性 
下 降 的 问题 ， 本 文 提出 了 一 种 同时 学 习 原 型 和 投影 矩阵 的 算 
以 进 一 步 增强 分 类 精度 和 和 鲁 标 性 。 
目标 函数 的 设计 
EOM Rs 党 习 算 法 学 习 得 到 原始 图 像 集 7 对 应 
的 原型 集 P={B,B,… 局 后 , LPSOP 不 仅 优化 p 中 每 个 原型 点 
的 位 置 ， 还 同时 学 习 一 个 线性 投影 拭 阵 W 将 原始 空间 中 梯 
投影 到 低 维 的 目标 空间 中 ， 减 少 元 余 特征 ， 提 高 分 类 判别 
力 ， 图 1 所 示 为 本 文 算法 的 原理 框图 。 对 于 任意 一 张 样 本 
像 xeT. ， 通 过 W 投影 映射 表示 为 
y2WxeR"(m:«d) 
本 文 设 计 基 于 近邻 ONNO 分 类 误差 估计 的 
J(W,P) 来 同时 学 习 得 到 一 个 优化 的 原型 集 P 和 线性 
阵 W 。 目 标 函 数 定义 如 下 : 


JIV,P=> > s,(Q) 


法 ， 
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mg 


(6) 
Fs e Ži 
HHE 


0) 


Hh: S) 为 step 函数 , 当 z<1 时 ,step(z)=0，, 否则 step(z) 21. 

从 分 类 角度 看 ，J 可 以 看 做 是 分 类 误差 和 ， 因 此 本 文 求解 优 
化 问题 min JW, P) 。 但 是 此 函数 不 可 微 , 为 了 保证 能 使 用 梯度 
下 降 法 来 同时 学 习 得 到 最 优 的 原型 集 疡 和 线性 投影 矩阵 W , 
本 文 使 用 斜率 为 6 ,中 心 z=1 的 Sigmoid 函数 来 近似 替代 step 


像 集 分 类 算法 对 比 ， 证 实 
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张 图 像 向 量化 得 到 的 4 维 
6]， 通 过 学 习 稀 疏 系 数 矩 
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表示 M 的 混合 1 与 4 范 数 ， 
a 和 为 标量 化 


| 别 能 力 ， 采 用 Fisher 判 
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函数 ， 其 定义 如 下 : 
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So) = Toms (8) 
当 B 很 大 时 ， Sp(z)xstep(z) 。 Sae) 的 导数 S CO 如 下 : 
; d(S,(z) . per 
Sp (z) ES ET (9) 
$5 G) 是 一 个 “窗口 ?函数 , 当 z=1 时 达到 最 大 值 。|z-1|>>0 


时 消失 。 如 果 ERR, o 则 近似 于 狄 拉克 5 函数 ,而 如 


AR Bi. ex frc 的 可 取 值 范围 内 近似 为 常数 。 此 外 ， 本 
文 定义 如 下 判别 函数 2, : 
dy nns ol 
Err do) 
Ep: ameo), nmo) 分 别 为 在 投影 目标 子 空 间 中 与 》 属 于 同 
一 个 类 和 不 同类 的 最 近邻 原型 。 他 们 分 别 定 义 为 
nn;(y)-WTa, ac-argmin|y -W'a], 
aeP\P, 
aeClass(x) 
nnj(y) -W?b, b-argmin|y -W?L]|, (11) 
balasin) 
sF E | 
LN 
eo EHE m DM 
ren AE di >J(P,W) => Gs M "- ht i 
z f 1 Pio oo 
E $e |j Ip QUE. 
^ | i: s 判别 的 原型 集 
— 初始 化 的 P 委 Ww 一 最 佳 的 p* ns - 
图 1 LPSOP 原理 框图 
Fig.1 Block diagram of LPSOP 
在 原始 空间 中 ， 与 ”属于 同一 类 的 样本 和 不 属于 同一 类 


的 样本 通过 投影 矩阵 页 投影 到 目标 子 空间 后 得 到 两 个 集 
从 这 两 类 集合 中 各 自选 择 一 个 最 近邻 原型 点 ， 得 到 原型 点 
nn;Cy) Ej nyO) o a 5j b 分别 为 最 近 领 原型 点 nns(y) ，nmns(y) 在 
原始 空间 中 对 应 的 样本 。 此 外 ， 对 于 所 有 的 *, 若 2.>1 ,目标 
函数 的 函数 值 则 近似 为 零 , 此 时 认为 x 被 正确 分 类 ; 反之 ，x 
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被 认为 错误 分 类 。 为 了 进一步 增强 目标 子 空间 的 稳定 性 和 和 鲁 — 走 模 式 。 首 先 使 用 Viola-Jones face detector 框架 提取 人 脸 ， 
棒 性 ， 本 文 在 投影 W 上 施加 正 交 约束 ， 即 WW=1 (7 为 单 。” 然后 将 人 脸 重 新 调整 为 30X30 的 灰 度 图 像 , 最 后 从 每 个 对 象 
IERE) o 的 视频 中 随机 选取 一 个 图 像 集 作为 训练 集 ， 剩 下 的 作为 测试 
13 算法 优化 集 。 
为 了 得 到 最 优 的 原型 集 疡 和 线性 投影 矩阵 W ， 本 文 发 


展 了 一 种 交 蔡 梯度 下 降 法 来 最 小 化 目标 函数 7 BUS 分别 求 E ERE. ZE RES 


出 /关于 w A P KRIA JEHEGTE BERERCEONE, EN eei d | ea e e teh 


E 
的 定义 中 涉及 到 WW RUP MEAS RET Bre Te, i 和? Fda dds NS EAE A 


= 


的 位 置 发 生变 化 时 , mo) 和 nmo 也 会 改变 。 不 难 发 现 ， 对 io d 
最 近邻 原型 的 搜索 过 程 依赖 W RU P 。 由 于 当 W 和 P 的 位 置 发 dd 4 mene 
生变 化 时 ,尽管 nns) 和 mi O) 也 会 改变 。 其 中 还 存在 不 连续 、 
依赖 关系 隐 睡 的 问题 ， 因 此 本 文 假设 当 投 影 和 原型 位 置 其 中 图 2 YTC 数据 集 部 分 样本 (每 一 行 属于 同一 个 图 像 集 ) 
一 个 发 生 很 小 的 变化 时 ， 另 外 一 个 保持 不 变 ， 即 在 求解 优化 Fig.2 Part samples of YTC (each row belongs to the same image set) 
问题 时 , 可 以 固定 W 后 求解 P ,也 可 以 在 固定 P 之 后 求解 W 。 YTC 数据 集 由 47 位 名 人 的 1910 个 视频 组 成 , 其 中 视频 
在 上 述 近 似 下 ， 可 得 到 J 关于 Ww 的 偏 导数 : 序列 中 的 每 个 对 象 均 发 生 较 大 姿态 、 光 照 和 表情 变化 。 由 于 
-$F S«QQ. (o mney),) 数据 集中 的 视频 大 多 分 辩 率 低 、 姿 态 变化 大 、 光 照 强度 各 异 ， 
ow mnn oolb (2) 忆 此 这 个 数据 集 与 前 面 两 个 相 比 更 具有 挑战 性 。 对 于 该 数据 
23 SEDL. (py, nn) 集 , 本 文 将 提取 的 脸 部 区 域 调整 为 20X20 灰 度 的 图 像 。 在 每 
ly =a O 一 段 视频 中 随机 选取 3 个 图 片 集 合作 为 训练 集 ， 随 机 挑选 6 
X (12) mn wen gw 的 第 k 列 ，yi 为 向 量 了 的 第 上 个 ”个 图 片 集合 作为 测试 集 , 如 图 2 所 示 为 YTC 样本 图 像 , 其 中 
每 一 行 的 人 脸 照片 来 自 同一 个 图 像 集 (YTC 数据 集 为 自然 条 


元 素 。 对 于 第 类 图 像 集 7 ， 最 优 原 型 集 只 ={pu 招 ， 则 7 了 关 


件 下 采集 的 图 像 ， 图 像 质量 不 高 ， 含 有 噪声 ， 因 此 可 以 利用 


T pe 的 偏 导数 如 下 : 该 数据 库 测试 识别 精度 与 鲁 棒 性 )。 
c 2.2 对比 算 法 和 参数 设置 
8 Ey LON yr 上 N , PS 
Op, et ez ly nn ODE 为 了 证 实 LPSOP 方法 的 有 效 性 , 本 文 与 多 种 流行 的 图 像 
or ain (13) — 集 分 类 算法 比较 进行 比较 , 这 些 算法 包括 DCCPI, MMD, 
-> 2 4008 WW! (b -x) AHISDU!, CHISDU!, SANPIS, RNP[5], SSDMLÜ?!, PDLUS], 


cl xem, ly 2nn£ oÈ 
Pei=b 


这 些 算法 的 源 代码 可 以 在 各 个 作者 的 主页 上 下 载 得 到 。 为 了 
通过 式 〈12) (13) 得 到 梯度 下 降 更 新 方程 为 《其 中 ， ”实验 结果 公平 ， 各 个 算法 相关 参数 按照 各 自 参考 文献 中 推荐 


”分别 为 学 习 步 长 因子 ) 的 实验 参数 进行 配置 。 在 本 文 的 实验 中 ， 每 个 图 像 集 都 由 随 
wi = wey ê (14) 机 选择 的 50. 100 或 200 张 人 脸 图 片 组 成 集合 ， 所 有 实验 结 
OW. 果 的 分 类 精度 与 标准 差 均 为 进行 10 次 实验 后 求 均值 得 到 。 此 
pl poy (15) 外 ， 本 文 设置 w=0.1，B=0.1，7=1 以 及 将 线性 投影 矩阵 灰 

oF 的 投影 维度 设置 为 100 维 。 

1.4 分 类 23 ”实验 结果 与 分 析 

首先 利用 1.3 节 的 优化 方法 ， 以 图 库 集 作为 输入 ， 学 习 本 文 首先 在 UCSD/Honda 数据 库 上 进行 实验 ,设置 图 像 
得 到 最 优 的 原型 集 P* 和 线性 投影 条 了 泗 W ， 接 着 将 测试 集 与 集 大 小 分 别 为 50、100 和 200, 测试 LPSOP 的 识别 精度 与 标 


原型 集 产 利 用 线性 投影 矩阵 丈 转换 到 目标 空间 ， 然 后 计算 准 差 。 表 1 为 对 比 LPSOP 与 其 他 流行 的 八 种 算法 在 
目标 空间 中 测试 图 像 集 和 原型 集 之 间 的 距离 ， 即 测试 集 样本 ”UCSD/Honda 数据 集 上 的 实验 结果 。 从 表 1 可 知 ，LPSOP LE 
与 图 库 集 中 相应 原型 之 间 的 最 短 欧式 距离 ， 最 后 将 测试 集 划 其 他 相关 算法 具有 更 高 的 识别 精度 与 更 低 的 标准 差 ， 证 明了 
分 到 最 近 原 型 所 在 的 图 像 集 所 属 的 类 中 , 完成 图 像 集 的 分 类 。 本 文 算法 的 有 效 性 。 值 得 注意 的 是 RNP、PDL 以 及 LPSOP 
在 图 像 集 大 小 为 200 时 识别 率 均 为 100%。 

表 1 在 UCSD/Honda 上 的 分 类 精度 与 标准 差 数 据 对 比 (%) 


2 实验 


为 了 验证 本 文 提 出 的 图 像 集 分 类 算法 LPSOP 的 有 效 性 ， Table 1 Classification accuracy and standard deviation data on 
本 文 在 三 种 公开 数据 库 上 对 比分 析 了 近年 来 八 种 流行 的 图 像 UCSD/Honda (%) 
集 分 类 算法 ， 并 记录 各 自 的 分 类 精度 与 标准 差 。 算法 50 100 200 
2.1 图 像 集 以 及 样本 设置 DCC 77.1 士 3.5 83.8+2.5 92.2+2.2 
本 文 使 用 UCSD/Honda'!7, CMU Mobol!s] 和 YouTube MMD 68.9 士 4.4 86.3 土 2.0 92.2 士 2.1 
celebrities(YTC)L9 这 三 个 数据 集 来 开展 算法 评估 。 AHISD 87.4+2.6 84.6+3.6 88.9+1.9 
UCSD/Honda 数据 集 包 含 20 名 对 象 共 59 个 视频 ， 视 频 CHISD 82.2 士 2.4 84.43: 1.9 91.8 1.8 
中 的 每 个 图 像 均 发 生 了 姿态 、 光 照 和 表情 的 变化 。 数 据 集中 SANP 84.3 土 2.9 91.8+3.2 94.5 士 3.0 
每 幅 人 脸 图 像 被 重新 调整 为 20X20 的 灰 度 图 像 , 并 用 直方 图 SSDML 83.8 土 2.0 84.3 土 2.0 81.4 士 3.3 
均衡 化 处 理 Cq， 所 有 的 视频 序列 被 分 成 两 组 ， 随 机 选取 20 RNP 87.2431 95.1-E3.0 100.0 2- 0.0 
个 视频 序列 作为 训练 集 ， 剩 下 的 39 个 序列 为 测试 集 。 PDL 90.1 士 2.1 95.9 士 2.3 100.0--0.0 
CMU Mobo 数据 集 包含 了 来 自 24 名 对 象 的 96 个 视频 序 LPSOP 91.8 土 1.9 96.1-- 1.3 100.0 2-0.0 


列 , 每 名 对 象 包含 4 个 视频 序列 ,每 个 序列 分 别 对 应 着 一 种 行 
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4&2 Æ CMU Mobo 上 的 分 类 精度 与 标准 差 数据 对 比 〈%%) 
Table2 Classification accuracy and 
standard deviation data on CMU Mobo (%) 


算法 50 100 200 
DCC 81.7 土 3.2 83.5 土 2.7 90.4 士 2.3 
MMD 91.1+2.5 93.5 土 2.2 95.53-0.9 
AHISD 90.8 土 2.7 93.9+2.1 91.7 士 2.6 
CHISD 91.5 土 3.4 93.1 士 2.5 97.4 士 2.2 
SANP 91.83.0 94.83- 1.6 9721.5 
SSDML 91.2+3.1 95.1 士 2.3 97.4 士 2.7 
RNP 91.7 士 2.8 94.6+1.2 97.6+1.5 
PDL 94.4 士 2.0 95.4 士 1.7 96.4 士 1.6 
LPSOP 94.7+1.6 97.2+0.9 98.3 +0.9 


接着 ,本 文 在 CMU Mobo 数据 库 上 进行 实验 , 同样 测试 
LPSOP 在 图 像 集 大 小 分 别 为 50、100 和 200 时 的 识别 精度 与 
标准 差 。 表 2 为 LPSOP 与 其 他 算法 的 对 比 数据 ,从 数据 中 可 
以 看 出 LPSOP 仍旧 具有 最 好 的 分 类 性 能 。 相 比 于 
UCSD/Honda, CMU Mobo 数据 库 更 具有 挑战 性 ,但 是 LPSOP 
的 识别 率 仍旧 可 以 高 达 96.73%， 比 同类 型 的 方法 PDL 平均 
精度 高 出 1.33%. 

最 后 , 本 文 在 更 具 挑 战 性 的 YTC 数据 库 上 进行 实验 , 图 
像 集 大 小 设置 与 上 面 的 实验 一 致 , 即 分 别 为 50、100 和 200. 
表 3 展示 了 最 终 的 实验 结果 。 从 表 中 可 以 得 出 LPSOP 比 其 他 
流行 算法 具有 更 好 的 性 能 ， 当 图 像 集 大 小 为 50、100 和 200 
时 ， 分 类 精度 分 别 比 次 好 的 算法 高 出 0.596. 19658 0.596. 
特别 时 当 图 像 集 大 小 较 小 时 (50 与 100), LPSOP 更 具 优 势 。 

表 3 在 YouTube 上 的 分 类 精度 与 标准 差 数据 对 比 (%) 


Table 3 Classification accuracy and standard deviation data on 


YouTube( 96) 
算法 50 100 200 
DCC 68.8 士 3.0 73.5 土 4.4 75.7 士 2.3 
MMD 70.0 士 3.5 71.734.5 76.23-4.4 
AHISD 73.5 土 5.6 72.8 士 7.6 68.93-4.4 
CHISD 72.6 士 5.7 73.3 土 5.3 74.6 士 4.9 
SANP 73.4 士 4.1 74.9 士 6.0 78.4 士 4.3 
SSDML 68.43- 5.6 68.13-5.3 72.5*42 
RNP 75.333544 75.3 土 5.0 77.7 土 5.2 
PDL 74.3 土 3.4 75.2 士 3.8 77.4 士 3.3 
LPSOP 75.8 士 2.6 76.3 土 3.6 78.93-2.5 
本 文 提 出 的 原型 减少 与 正 交 投影 学 习 方法 同时 学 习 最 优 
化 原型 和 一 个 线性 投影 矩阵 。 学 习 到 的 原型 集合 能 够 很 好 的 
描述 图 像 集 中 的 样本 结构 与 特征 ， 线 性 投影 矩阵 则 可 以 看 做 
是 一 种 全 局 尺度 ， 能 够 很 好 的 提高 算法 精度 与 鲁 棒 性 。 为 了 


展示 本 文 算法 学 习 的 结果 ,以 YTC 数据 库 为 例 , 图 3 给 出 了 
部 分 学 习 到 的 原型 对 应 的 图 像 ， 其 中 每 一 行 属 于 同一 个 原型 
集 ， 从 图 中 可 以 看 出 ， 学 习 到 的 原型 具有 人 脸 的 重要 的 轮廓 
与 标志 信息 。 图 4 给 出 了 投影 矩阵 多 〈400X100)， 通 过 该 
和 矩阵 对 应 的 图 像 能 够 看 出 ， 抢 阵 的 元 素 值 不 尽 相 同 ， 说 明 该 
线性 投影 矩阵 作为 一 种 全 局 斥 度 贡献 了 权重 。 


T 


图 3 学 习 到 的 部 分 原型 〈 每 一 行 来 自 同一 个 原型 集 


Fig.3 Part of the prototypes learned (each row comes from the same 


此 


prototype set) 
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图 4 学 习 到 的 全 局 线性 投影 矩阵 W 
Fig.4 Learned global linear projection matrix W 
2.4 算法 收敛 性 
本 文 没有 直接 证 明 LPSOP 算法 的 收敛 性 质 ,但 是 通过 实 
验 分 析 , 该 算法 具有 快速 和 平滑 的 收敛 特性 。 在 YTC 数据 库 
上 测试 时 收敛 曲线 如 图 5 所 示 ， 随 着 迭代 的 进行 ， 大 约 30 
次 后 损失 函数 的 值 就 趋 于 稳定 ， 说 明 该 算法 具有 较 好 的 收 全 
特性 。 


迭代 次 数 


图 5 收敛 曲线 
Fig. Convergence curve 

2.5 ”问题 与 改进 方向 

表 1-3 可 知 , 与 其 他 八 种 图 像 集 分 类 方法 相 比 ,LPSOP 
在 这 三 个 数据 集 上 具有 最 高 的 识别 精度 与 最 低 的 标准 差 。 这 
主要 归功 于 本 文 在 以 下 两 个 方面 的 创新 : a) 通过 稀疏 表示 和 
线性 判别 分 析 学 习 一 组 有 代表 性 的 原型 点 ; b) 同时 学 习 最 优 
的 原型 集 和 一 个 全 局 的 线性 投影 矩阵 提高 了 图 像 集 的 判别 能 
力 。 但 是 LPSOP 可 能 存在 过 拟 合 的 问题 , 后 续 拟 增加 正则 项 


来 改进 LPSOP， 比 如 引入 45 正则、 外 稀疏 正则 、451 结 构 化 稀 
ii; TE WU 
3 ”结束 语 

本 文 提出 了 一 种 用 于 图 像 集 分 类 的 图 像 集 原型 与 尺度 学 


习 算 法 (LPSOP)。 该 算法 同时 学 习 图 像 集 的 原型 集合 和 一 个 
线性 投影 和 矩阵， 最终 学 习 到 的 原型 (代表 点 ) 集合 能 够 最 佳 
的 描述 图 像 集 ， 学 习 到 的 正 交 投影 矩阵 则 大 幅度 提高 原型 集 
的 判别 能 力 。 此 外 ， 为 了 进一步 增强 目标 子 空间 中 的 稳定 性 
和 和 鲁 棒 性 ， 投 影 矩 阵 约束 为 标准 正 交 抢 阵 。 为 了 同时 开展 优 
化 原型 和 投影 学 习 ， 本 文 发 展 了 梯度 下 降 算法 ， 对 原型 集 和 
投影 矩阵 进行 交 蔡 迭代 优化 。 该 算法 在 三 种 公开 数据 集 上 进 
行 了 实验 ， 实 验 结果 表明 与 其 他 目前 比较 先进 的 算法 相 比 ， 
LPSOP 在 图 像 集 分 类 上 有 更 高 的 识别 精度 和 更 好 的 鲁 棒 性 。 
但 是 本 文 并 没有 考虑 到 图 库 集 本 身 包 含 的 隐藏 的 可 利用 特征 ， 
下 一 步 可 以 采用 相关 低 秩 算法 捕获 隐藏 的 特征 进一步 提高 算 
法 的 识别 精度 。 
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